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兰州 大 学 基础 医学 院 循 证 医学 中 心 ， 兰 州 730030;} 


原始 文献 典籍 的 “一 手 证 据 ” 是 展开 数字 人 驻 丰 


技术 ， 以 共 词 分 析 方 法 为 突破 口 ， 比 较 全 面 地 展开 了 数字 人 文 季 


究 者 如 何 


基于 来 


究 的 重要 途径 。 [方法 / 过 程 ] 本 文 以 GR 
原始 文献 的 


列 ， 基 于 自然 语言 处 
EH” 系统 化 的 和 


。 [结果 / 结论 ] 本 研究 针对 《 鲍 氏 国策 》 


RT 


“一 手 证 据 ” 的 提取 ， 从 词 


F 


BR. TIAMAT AIR All S Bl ， 展 开 了 基于 词语 展开 分 析 时 若 


ZR 


基础 指标 的 获取 过 程 ; 进而 ， 本 和 


频 统计 、 售 
究 以 CORA 


sid 


， 提 供 了 数字 人 文 词 网 络 可 视 化 、 聚 类 系数 、 
对 一 手 证 据 展开 解析 的 基本 程序 。 本 研究 所 展开 的 方 ; 
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A: 基于 《 鲍 氏 国策 》 的 共 词 分 析 [J]. 农业 图 书 


是 指 来 自 于 原始 文献 的 证 据 及 其 关联 要 素 。 


= 
a 


分 析 方 法 与 指标 ， 


， 有 助 于 为 完成 数字 人 文 “一 手 证 据 ” 的 循 证 范式 提供 参考 。 


m 


西汉 刘 向 在 校 理 皇家 书库 时 ， 对 所 见 的 6 种 记载 


战国 纵横 家 说 辞 的 作品 ， 包 括 《 国 策 》《 国 事 》《 事 


证 据 的 获取 是 影响 循 证 数字 人 文 研究 的 最 关键 因 
素 之 一 。 按 照 证 据 来 源 于 原始 文献 还 是 “二 手 ” 的 研 
究 文献 ， 可 以 将 循 证 数字 人 文 研究 的 证 据 分 为 “一 手 
证 据 ” 和 “二 手 证 据 *"。 本 文中 ， 所 请 的 “一 手 证 据 ” 


语 》《 短 长 》《 长 语 》《 修 书 》， 进 行 了 编撰 。 因 书 所 
记载 的 多 是 战国 时 纵横 家 为 其 所 辅 之 国 提出 的 政治 和 
外 交 策 略 ， 因 此 刘 向 把 这 本 书 名 为 《战国 策 》。 该 书 是 
一 部 兼 具 史 学 和 文学 特色 的 传统 典籍 。 该 书记 载 了 上 
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起 前 490 年 智 伯 灭 范 氏 ， 下 至 前 221 年 高 渐 离 以 筑 击 
秦始皇 ， 两 百 多 年 间 策 士 的 游说 活动 等 历史 事件 。 
《战国 策 》 比 较 全 面 地 反映 了 战国 时 期 各 国 的 政治 、 军 
事 、 外 交 方 面 的 一 些 活动 情况 和 社会 面貌 。《 战 国策 》 
善于 述 事 明理 ,文中 大 量 运用 富 言 、 壁 喻 ,语言 生动 ， 
富 于 文采 ， 对 中 国 两 汉 以 来 史 传 文政 论文 的 发 展 都 产 
生 过 相当 的 影响 "2。 

由 于 成 书 年 代 较 早 ， 在 传承 过 程 中 《战国 策 》 多 
有 散 佚 。 南 宋 文人 鲍 彪 对 《战国 策 》 进 行 了 编订 并 注 
E, MMT (HORSE) M, SCH, ER 
( 今 属 浙江 ) 人 (HALA AEH). BURIED 
注释 《战国 策 》， 收 集散 佚 严重 的 《战国 策 》， 对 收集 
的 史料 进行 了 考 辩 梳理 ， 重 新 编排 了 次 序 和 世系 X 
其 进行 了 点 评 ， 四 易 其 稿 终 完成 B4。 

本 文 以 西北 师范 大 学 图 书馆 收藏 的 古籍 珍本 《 鲍 
氏 国 策 》 为 研究 对 象 ， 通 过 共 词 分 析 方 法 ， 提 取 文 献 
中 的 数字 人 文 元 素 ， 并 对 其 结构 特征 加 以 有 效 分 析 ， 
从 而 揭示 基于 古籍 文献 的 “一 手 证 据 ” 展 开 文 献 循 证 
的 基本 路 径 与 主要 步骤 ， 进 而 为 研究 者 基于 来 自 数字 
化 古籍 文献 的 原始 证 据 展开 文献 循 证 研究 提供 方法 规 


范 参 照 。 


2 研究 设计 


2.1 工具 与 方法 


本 文 使 用 的 分 析 工 具 与 分 析 方 法 主要 包括 : 使 用 
专门 的 中 文 古籍 文献 分 词 工具 Jiayan ( 甲 言 ) 对 《 鲍 氏 
国策 》 进 行 分 词 与 词性 标注 。 使 用 本 团队 自主 开发 的 共 
现 矩 阵 构造 代码 ， 构 建 词 语 共 现 矩阵 。 应 用 networkX 
展开 度 中 心性 、 中 介 中 心 度 、 接 近 中 心 度 等 相关 指标 
的 分 析 。 应 用 本 团队 优化 改良 的 莱 顿 算法 ， 展 开 结构 
洞 及 其 他 关键 网 络 结构 特征 分 析 。 使 用 networkX 对 共 
词 网 络 进行 聚 类 分 析 及 其 他 共 词 网 络 特征 的 分 析 。 


2.2 分 析 步 又 


为 提取 《 鲍 氏 国策 》 中 的 证 据 要 素 ， 本 研究 按照 
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如 下 步骤 展开 了 研究 。 

(1) 从 西北 师范 大 学 图 书馆 的 特 藏 数据 库 中 ， 下 
载 了 《 鲍 氏 国策 》 全 文 ， 以 备 分 析 。 

(2) 应 用 Jiayan ( 甲 言 ) 库 ， 对 《 鲍 氏 国策 》 GE 
十 卷 ) 中 的 全 部 文献 进行 基于 隐 马 尔 科 夫 算 法 (Hid- 
den Markov Algorithm, HMM) 的 分 词 ， 并 标注 词性 。 

(3) 根据 同义词 相关 性 原理 ,识别 了 语义 模糊 词 ， 
并 将 其 加 入 停 用 词 表 。 分 词 的 时 候 将 停 用 词 和 模糊 词 
表 进 行 删除 处 理 。 

(4) 将 停 用 词 (包括 语义 模糊 词 ) 及 非 名 词 全 部 
删除 ， 仅 保留 全 部 名 词 。 

(5) 对 全 部 名 词 进行 词 频 统计 ， 并 对 具有 相同 频 
数 的 名 词 ， 根 据 词义 相关 度 赋 予 不 同 的 权重 ， 最 终 形 
成 进行 加 权 后 的 名 词 词 频 统 计 结 

(6) 根据 词 频 高 低 分 别 制作 3 个 共 词 矩阵 ， 并 应 用 
networkX 展开 了 基于 共 词 网 络 的 各 种 特性 统计 分 析 。 


3 研究 结果 


经 过 处 理 ， 本 研究 制作 了 一 个 高 频 词 矩阵 。 人 选 
该 矩阵 中 的 词 的 加 权 词 频 为 60 及 以 上 ， 共 有 102 个 关 
键 词 。 将 加 权 词 频 为 30~60 之 间 的 词语 识别 为 中 频 词 ， 
共有 92 个 关键 词 。 将 加 权 词 频 为 20~30 的 72 个 关键 
词 确定 为 低频 词 。 基 于 这 3 种 频次 不 同 的 词语 ， 本 研 
究 构建 的 3 个 共 词 矩阵 ， 并 展开 了 统计 分 析 。 


3.1 “一 手 证 据 ” 的 可 视 化 


在 循 证 数字 人 文 研究 中 ， 词 频 是 一 个 基本 的 统计 
指标 。 很 多 研究 者 都 希望 通过 词 频 分 析 ， 帮 助 读 者 快 
速 提 取 文 本 中 的 证 据 要 素 ， 把 握 原 始 文本 的 主题 。 然 
而 ， 在 本 团队 的 前 序 研究 中 发 现 ， 仅 提供 词 频 ， 并 无 
助 于 读者 提高 阅读 效率 中 。 为 此 ， 循 证 数字 人 文 研究 
中 ， 需 要 基于 原始 文本 中 的 关键 词 等 “一 手 证 据 ”， 展 
开 更 进一步 ， 更 具有 整体 性 的 分 析 。 共 词 分 析 通 过 关 
键 词 对 共 现 的 情况 来 展示 关键 词 间 的 关联 强度 ， 从 而 
有 助 于 展示 出 《 鲍 氏 国策 》 所 记述 的 内 容 中 ， 各 证 据 
要 素 之 间 的 关联 关系 。 例 如 ， 在 共 词 网 络 中 ， 从 一 个 
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关键 词 节点 发 出 的 连 线 越 多 ， 表 示 该 关键 词 所 表征 的 
证 据 信息 越 重 要 。 按 照 这 一 原理 ， 本 研究 对 上 述 3 个 
共 词 矩阵 进行 了 可 视 化 分 析 。 
3.1.1 高 频 关键 词 共 现 网 络 

本 研究 中 ， 经 过 细致 的 词语 第 选 ， 将 经 过 处 理 后 
的 名 词 词 表 作为 “一 手 证 据 ” 的 表征 。 为 此 ， 高 频 词 
的 共 现 网 络 直观 地 显示 了 原始 文本 中 主要 “一 手 证 据 ” 
及 其 与 其 他 证 据 要 素 之 间 的 关联 。 图 1 是 对 《 鲍 氏 国 
策 》 中 ， 最 高 频 的 102 个 名 词 所 构造 的 共 词 网 络 。 

由 图 1 ey, GEE” GE “fa” “PR” SEY 
点 周围 连 线 较为 密集 ， 处 于 网 络 核心 位 置 ; 而 “ 国 ” 
“ 女 ”“ 分 ”等 节点 连 线 相 较 于 其 他 节点 较为 稀疏 ， 处 
于 边缘 位 置 。 这 些 信息 ， 能 够 为 数字 人 文 研究 者 提供 
一 些 重要 的 循 证 线索 。 也 就 是 说 ， 循 证 数字 人 文 研究 
中 ， 可 以 根据 这 些 最 高 频次 的 名 词 之 间 的 关联 特征 ， 
分 析 “ 一 手 证 据 ” 的 主要 元 素 。 

3.1.2 中 频 关键 词 共 现 网络 

上 文 对 《 鲍 氏 国策 》 中 最 高 频次 的 102 个 词 进行 
了 共 词 网 络 分 析 ， 从 而 提供 了 一 个 数字 人 文 研 究 的 循 
证 渠道 。 进 而 ， 本 研究 对 词 频 低 于 上 述 102 个 词 ， 但 
仍然 相对 比较 高 频次 出 现 的 92 个 关键 词 构建 了 如 下 图 
所 示 的 共 词 网 络 。 

由 图 2 可 见 ，“ 百 姓 ”“ 大 夫 ”“ 群 臣 ” 等 节点 
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周围 连 线 较为 密集 ， 处 于 网 络 核心 位 置 ; 而“ 攻 楚 ” 
“ 横 ” 等 节点 连 线 相 较 于 其 他 节点 较为 稀 鸣 ， 人 处 于 边缘 
位 置 。 与 图 1 不同 , 图 2 中 的 名 词 出 现 次 数 并 非 很 高 ， 
但 其 网 络 仍然 有 疏 有 密 。 根 据 图 中 词语 之 间 的 关联 关 
系 ， 数 字 人 文 研究 者 就 可 以 进一步 获取 更 多 关于 “一 
手 证 据 ” 的 信息 。 

3.1.3 低频 关键 词 共 现 网 络 

高 频 与 中 低 的 词语 为 数字 人 文 研究 者 提供 了 一 定 
的 证 据 信息 。 在 此 基础 上 ， 本 研究 针对 词 频 相对 较 低 
的 名 词 进行 了 共 词 网 络 分 析 。 

由 图 3 可 得 ， 相 较 于 高 、 中 频 关 键 词 网 络 ， 低 频 
关键 词 无 论 是 在 节点 个 数 和 边 的 数量 上 都 较为 稀 下 ， 
有 更 多 的 边缘 节点 。 通 过 对 上 述 3 类 网 络 中 不 同 词语 
及 词语 类 关系 的 比较 分 析 ， 数 字 人 文 研究 者 就 可 以 得 
到 很 多 基本 的 “一 手 证 据 ” 信 息 ， 从 而 为 更 加 全 面 、 
细致 的 循 证 研究 英 定 基础 。 


3.2 “一 手 证 据 ” 的 网 络 统计 特性 


基于 共 词 矩阵 ， 循 证 数字 人 文 研 究 者 可 以 使 用 网 
络 节点 数 、 网 络 关系 数 、 最 短路 径 、 全 局 效率 和 聚 类 
系数 等 统计 指标 ， 对 “一 手 证 据 ” 的 统计 特性 进行 了 
进一步 的 深入 分 析 。 表 1 中 ， 展 示 了 本 研究 基于 《 鲍 
氏 国 策 》 所 构建 的 3 类 频数 不 同 的 名 词 网 络 在 上 述 5 
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Fig.l Noun co-word network with word frequency greater than 100 
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Fig.3 Noun co-word network with word frequency from 20to 30 
表 1 高 、 中 、 低 3 个 共 词 网 络 的 五 种 统计 指标 
Table 1 Five statistical indicators of high-, medium- and low-frequency co-word networks 
比较 对 象 网 络 节点 数 /个 网 络 关 系数 /个 最 短路 径 聚 类 系数 全 局 效率 
高 词 频 共 现 网 络 102 19 229 1.061 93 0.954 2 0.969 04 
中 词 频 共 现 网 络 92 12 389 1.083 61 0.936 1 0.958 19 
低 词 频 共 现 网 络 5 599 1.138 11 0.9107 0.930 95 
个 指标 上 的 统计 结果 。 网 络 节点 数 依次 递减 ， 关 键 词 间 的 共 现 关系 数 也 处 于 
3.2.1 PER aE RM REAR 递减 状态 ， 说 明 两 者 之 间 存 在 着 关联 关系 。 同 时 ，3 个 


由 表 1 可 看 到 ， 随 着 高 、 中 、 低 词 频 共 现 网 络 的 ”网 络 的 聚 类 系数 都 高 于 0.9， 说 明 3 个 网 络 都 具有 很 好 
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的 凝聚 力 ， 其 中 高 词 频 共 现 网络 的 聚 类 系数 为 0.954 2 
为 最 大 ， 证 明 高 词 频 共 现 网 络 凝 聚 力 最 高 。 这 3 个 网 


络 均 具有 上 略 大 于 1 的 平均 最 短 距离 和 0.9 以 上 的 聚 类 系 
数 、 说 明 关 键 词 间 具有 一 定 的 关系 、 存 在 网 络 小 世界 
效应 〈 小 世界 网 络 具 有 平均 最 短路 径 长 度 小 、 聚 类 系 
数 大 的 特点 ); 从 一 定 程度 上 也 反映 出 高 、 中 、 低 词 频 
关键 词 间 均 具有 良好 的 关联 性 、 网 络 连通 性 也 较 好 。 
3.2.2 最 短路 径 及 全 局 效率 分 析 

最 短路 径 是 连接 任何 两 个 关键 词 之 间 的 最 短途 径 
的 平均 长 度 ， 平均 距 离 短 表示 关键 词 间 信 息 传播 快 ， 
影响 大 ; 最 短路 径 越 短 表示 关键 词 间 信 息 传播 快 ， 影 
响 大 。 全 局 平均 效率 是 所 有 结 点 对 的 平均 效率 ， 建 立 
在 “距离 ”基础 上 用 来 测量 网 络 的 整体 凝聚 力 。 由 表 
1 可 以 看 出 ， 与 中 词 频 及 低 词 频 相 比 ， 高 频 词 网 络 中 关 
键 词 传播 最 快 ， 效 率 最 高 ， 这 表明 高 词 频 网 络 具 有 最 
佳 的 整体 凝聚 力 和 关联 程度 。 

3.2.3 中 心性 分 析 与 比较 

中 心性 用 来 反映 各 个 关键 词 在 共 词 网 络 中 所 在 中 
心 的 程度 ， 测 度 方法 主要 分 为 点 度 中 心 度 、 接 近 中 心 
度 、 特 征 向 量 中 心 度 和 中 介 中 心 度 4 种 。 

点 度 中 心 度 (Degree Centrality) 是 刻画 中 心性 最 
直接 最 直观 的 测度 指标 ， 是 该 关键 词 在 共 现 网 络 中 与 
其 他 关键 词 存在 联系 的 节点 数 除 以 n-1 (其 中 -1 就 是 
归 一 化 使 用 的 常量 ) ， 点 度 中 心 度 越 大 ， 说 明 该 关键 词 
与 其 他 关键 词 产生 的 联系 越 多 ， 即 该 关键 词 在 共 现 网 
络 中 的 地 位 就 越 高 。 

中 介 中 心 度 (Betweenness Centrality) 指 的 是 一 个 
关键 词 担任 其 它 两 个 关键 词 之 间 最 短路 的 桥梁 的 次 数 ， 

一 个 关键 词 充 当 “ 中 介 ” 的 次 数 越 高 ， 它 的 中 介 中 心 
度 就 越 大 。 中 介 中 心性 用 来 衡量 哪些 关键 词 具 有 良好 
的 沟通 和 信息 传递 的 桥梁 作用 。 

特征 向 量 中 心 度 (Eigenvector Centrality) 认为 ， 
一 个 关键 词 的 重要 性 既 取决 于 其 邻居 词 的 数量 ( 即 该 
节点 的 度 )， 也 取决 于 其 邻居 词 节 点 的 重要 性 。 特 征 癌 
量 中 心 度 算法 是 一 个 用 来 度量 节点 之 间 的 传递 影响 和 
连通 性 的 算法 ， 在 特征 向 量 中 心 度 算法 中 ， 其 认为 与 
LA 高 得 分 的 节点 相连 接 比 与 具有 低 得 分 的 节点 相连 


= 
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接 所 得 的 贡献 更 大 m。 
按照 接近 中 心 度 (Closeness Centrality) 的 原理 ， 
一 个 关键 词 的 接近 中 心 度 较 高 ， 说 明 该 关键 词 到 网 络 
中 其 他 各 关键 词 的 距离 总 体 来 说 较 近 。 如 果 节 点 到 图 
其 他 节点 的 最 短 距离 都 很 小 ， 那 么 它 的 接近 中 心性 
就 很 高 。 相 比 中 介 中 心性 ， 接 近 中 心性 更 接近 几何 上 
的 中 心 位 置 。 

根据 LEE 的 研究 四， 共 词 网 络 中 关键 词 的 中 心性 
可 以 用 来 衡量 一 个 关键 词 在 网 络 中 的 重要 性 。 基 于 上 
文 所 述 的 4 个 关键 性 指标 ， 本 研究 应 用 Python 软件 中 
的 networkX, 计算 了 《 鲍 氏 国策 》 中 主要 关键 词 在 4 
个 中 心 度 上 的 值 。 为 节约 篇 幅 ， 本 研究 仅 列 出 上 述 4 
项 中 心 度 指标 排 在 前 10 的 关键 词 (部 分 关键 词 指标 取 
值 相同 ， 则 只 取 一 个 值 且 在 关键 词 合 并 表示 )。 具 体 结 
果 如 表 2 所 示 。 

(1) 高 词 频 网 络 中 心 度 分 析 。 如 上 文 所 述 ， 点 度 
J “a 2 
AOL, AWIR, “B. R, Se Rs 
Ail, SH R, MR, RP E, ae 
词 处 在 网 络 的 最 核心 位 置 ， 点 度 中 心 度 为 1， 
关键 词 与 其 他 关键 词 均 有 联系 ， 在 网 络 中 处 于 最 重要 
的 位 置 。 表 2 中 其 余 高 频 关键 词 的 点 度 中 心 度 均 大 于 
等 于 0.9703, 说明 表 中 的 这 些 高 频 关键 词 也 处 在 网 络 
中 较 重要 位 置 。 中 介 中 心性 用 来 衡量 哪些 关键 词 具 有 
桥梁 作用 ， 见 ， 


ER 氏 、 sie 民 、 、 身 、 利 、 ` 志 ane 
mite, KAF, = ”和 BO ae on 中 
心性 为 表 中 最 Teas 响 力 。 同 时 需要 注意 的 


是 ， 上述 这 些 词 的 中 介 中 心性 最 大 值 为 0.001。 由 此 可 
见 ， 高 词 频 网 络 中 具有 桥梁 作用 的 关键 词 较 少 ， 关 键 


词 传递 信息 和 沟通 能 力 较 弱 。 a 
中 心性 最 高 的 是 “ 势 、 氏 、 命 、 力 、 民 、 楚 王 、 身 、 
Al, FH. GR. HR, aR, RR BL AR”, HE See 


Sef A ENEN 点 处 于 重要 位 置 ， 但 列 出 的 10 
行 高 频 关 键 词 特征 向 量 中 心 度 相差 不 大 ， 总 体 偏 低 且 


差距 不 明显 。 a nn seein sy 
程度 。 表 2 高 频 词 中 ，“ 势 、 氏 、 命 、 力 、 民 、 楚 王 、 


202303.10379v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


志 鹏 ， 赵 悦 言 ， 杨 克 虎 ， 周 文 杰 
数字 人 文 “ 一 手 证 据 ” 循 证 范式 研究 : BT 《 鲍 氏 国策 》 的 共 词 分 析 


表 2 高 、 中 、 低 词 频 网 络 关键 词 中 心性 数值 (前 10) 


Table 2 Keywords' centrality in high-, medium- and low-frequency co-word network (Top 10) 


高 词 频 De Be Ec Cc 
SM. E a. WH. RR. MEL GB. A, oH. OR. ORR. RR. AP. E 1.000 0 0.001 0 0.104 2 1.000 0 


BR. IR 0.9901 0.0010 0.1033 0.9902 
HE. iE 0.9901 0.0009 0.1034 0.9902 
BF. R KF. Sh. HA. SEAL UN AY B RE AJR. BR FE. Bh. eS A OB A 0.9901 0.0007 0.1037 0.9902 
Hi 0.9802 0.0009 0.1026 0.9806 
礼 0.9802 0.0008 0.1026 0.9806 
智 伯 、 信 、 世 、 应 0.9802 0.0006 0.1030 0.9806 
张 0.9703 0.0006 0.1020 0.9712 
jej 0.9703 0.0006 0.1021 0.9712 
车 0.9703 0.0005 0.1021 0.9712 
中 词 频 De Be Ec Ce 
KK. RF. TH. SAS AS TR. BE. 8. RR TI. BE EER. oe. OR. i. HS G E R 1.0000 0.0015 0.1119 1.0000 
百姓 、 法 、 羊 、 玉 0.9890 0.0013 0.1111 0.9891 
宫 、 刺 0.9890 0.0013 0.1110 0.9891 
W fa E 0.9890 0.0013 0.1111 0.9891 
TEIR 0.9890 0.0013 0.1110 0.9891 
媚 、 位 、 木 0.9780 0.0012 0.1100 0.9785 
B 40 0.9780 0.0013 0.1100 0.9785 
a 0.9780 0.0011 0.1103 0.9785 
诚 0.9670 0.0012 0.1089 0.9681 
0.9670 0.0010 0.1092 0.9681 
低 词 频 De Be Ec Ce 


兄弟 、 君 子 、 校 、 人 谓 、 土 
君臣 


a Ho h E RE Wh oih E E a M R 


OR, FP R BRL R, RT, E, RR” FRH 
词 接近 中 心性 为 1 最大， 说 明 它 与 其 他 关键 词 之 间 的 
距离 最 小 可 以 和 其 他 所 有 关键 词 直接 联系 且 联 系 较为 
紧密 。 

(2) 中 词 频 网 络 中 心 度 分 析 。 由 表 2 中 频 词 结 
可 见 ，“ 大 夫 、 天 子 、 情 、 二 人 、 月 、 帝 、 境 、 弟 、 


1.000 0 0.0052 0.1312 1.000 0 
0.985 9 0.0047 0.1301 0.986 1 
0.985 9 0.0050 0.1297 0.986 1 
0.971 8 0.0024 = 0.1301 0.972 6 
0.971 8 0.004 5 0.128 4 0.972 6 
0.957 7 0.002 1 0.129 0 0.959 5 
0.957 7 0.0024 0.1283 0.959 5 
0.957 7 0.0022 0.1286 0.959 5 
0.943 7 0.0022 0.1268 0.946 7 
0.943 7 0.0019 0.1273 0.946 7 


EB, BE, PE, E. R BL A, fa, BY 
HE” SAL Ee, BENI, KRAE 
词 的 点 度 中 心 度 均 高 于 0.9670, XRH, K2 中 的 中 
频 关键 词 均 处 在 网 络 中 较 重 要 位 置 。 其 中 “大 夫 、 天 
子 、 情 、 二 人 、 月 、 帝 、 境 、 弟 、 秦 兵 、 郡 、 惠 王 、 
Hit, E. iR Bi, HA, fa. BEL AR” See 
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介 中 心性 最 高 ， 具 有 最 强 传递 和 沟通 能 力 。 由 于 这 些 
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络 规模 减 去 网 络 的 元 余 度 。 节 点 的 有 效 规模 实际 上 就 


词 的 中 介 中 心性 最 大 值 仅 为 0.001 5， 由 此 可 见 ， 中 词 
频 网 络 中 几乎 没有 具有 桥梁 作用 的 关键 词 。 表 2 中 中 
频 词 特征 向 量 中 心性 和 接近 中 心性 最 高 的 词 是 “大 夫 、 
KRY. ta, SA. Ay i. Ry By RR, HB BE, 
Het, Fr. R Bi, HAL fA, SEL R”, eA Gee 
关键 词 相 连接 的 邻居 节点 处 于 重要 位 置 ， 且 这 些 词 语 
与 其 他 所 有 关键 词 之 间 存 在 直接 联系 。 

(3) 低 词 频 网 络 中 心 度 分 析 。 由 表 2 低频 词 结 
aIL, “W, AT, R, A, E” X 5 个 关键 词 
在 4 个 中 心性 指标 上 均 为 最 高 ， 这 说 明 这 5 个 低频 关 
键 词 不 仅 处 于 网 络 中 最 重要 的 位 置 ， 也 拥有 着 最 强 的 
传递 及 沟通 能 力 ， 并 且 与 其 相连 接 的 邻居 节点 也 处 于 
重要 位 置 。 整 体 而 言 ， 这 5 个 词 与 其 他 词 之 间 具 有 紧 
密 联系 。 

综 上 所 述 ， 基 于 4 种 中 心性 数据 比较 分 析 ， 数 字 
人 文 的 研究 者 可 以 充分 挖掘 原始 文本 中 的 证 据 信息 , 
并 结合 具体 的 情境 知识 ， 对 这 些 证 据 做 出 进一步 深入 
分 析 。 

3.2.4 结构 洞 分 析 

结构 洞 是 指 网 络 中 的 某 些 个 体 与 其 他 个 体 有 直接 
联系 ， 但 也 与 另 一 些 个体 不 发 生 直 接 联系 或 关系 间断 ， 
从 而 在 整体 上 看 好 像 网 络 结构 中 出 现 了 洞穴 的 现象 中 
结构 洞 主要 用 来 衡量 网 络 连接 中 的 空洞 位 置 的 大 小 。 
目前 学 界 内 对 结构 洞 的 测量 主要 通过 有 效 规模 (Effect 
Size)、 效 率 (Efficiency)、 限 制度 (Constraint) 3 种 方 
式 。 本 研究 采用 限制 度 和 有 效 规模 这 两 对 指标 对 结构 
洞 进行 衡量 。 

限制 度 指 网 络 中 利用 结构 洞 的 受 限 程度 。 具 体 而 
言 ， 是 指 自我 节点 与 其 他 节点 相连 所 受到 的 约束 程度 ， 
与 节点 可 获取 权利 旦 反 向 关系 ， 约 束 越 高 ， 可 获取 的 
资源 和 信息 越 少 。 限 制度 表征 了 个 体 网 络 的 闭合 性 ， 
即 网 络 中 自我 节点 与 其 他 节点 直接 或 间接 的 紧密 程度 ， 
限制 度 越 低 ， 与 相连 的 其 他 节点 所 覆盖 的 网 络 越 开 放 ， 
网 络 越 宣 含 结构 洞 ， 越 富有 信息 利益 和 控制 利益 。 

有 效 规 模 用 来 测量 节点 在 网 络 中 的 非 宛 余 因素 。 


具体 而 言 ， 某 个 节点 的 有 效 规模 等 于 该 节点 的 个 体 网 
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是 其 邻 域 中 所 包含 的 节点 的 数量 ， 宛 余 度 则 等 于 该 节 
点 所 在 的 个 体 网 络 成 员 中 其 他 节点 的 平均 度数 。 所 以 ， 
有 效 规 模 等 于 个 体 网 络 规模 减 去 此 节点 该 个 全 网 络 成 
员 的 平均 度 四 。 有 效 规模 可 以 测算 某 一 关键 词 的 整体 
影响 力 。 有 效 规模 越 大 ， 表 明 这 些 关键 词 在 整个 网 络 
中 因 与 其 他 关键 词 有 诸多 连 线 ， 从 而 具有 重要 控制 力 
和 影响 力 。 

(1) 高 频 关键 词 。 从 表 3 中 可 以 看 出 ， 在 高 频 关 
键 词 网 络 中 有 效 规模 最 高 的 关键 词 为 “ 氏 、 民 、 身 、 
we, BL ar, HN. FEEL A, HL RL E KRT, 
史 、 家 ”， 这 些 关键 词 的 有 效 规模 值 为 7.316 8。 由 此 表 
明 这 些 词 在 整个 网 络 中 与 其 他 关键 词 连 线 很 多 ， 因 此 
具有 重要 控制 力 和 影响 力 。 有 效 规模 越 大 ， 说 明 节 点 
在 网 络 中 地 位 越 重 要 ， 反 之 亦 然 。 按 此 标准 判断 ， 
“ 智 伯 、 攻 、 应 ”等 词 在 网 络 中 地 位 重要 性 较 小 。 

在 共 现 网 络 中 ， 有 些 关键 词 只 与 另外 一 个 关键 词 
相连 ， 从 而 受 与 其 相 联系 的 其 他 词 的 严格 约束 。 这 导 
致 了 这 些 词语 对 其 他 词语 的 依赖 性 大 ， 跨 跃 结构 洞 能 
力 极 弱 。 由 表 3 ATL, “RRE, oe, OB ar, 
Ty FEE. Al, FL E, HE, RT, BL Z, OB 
ee” GRATE 0.039 3， 表 明 在 高 词 频 共 现 网 络 
中 ， 这 些 关 键 词 与 较 多 关键 词 相 连 ， 其 受 与 其 相 联系 
词 的 约束 性 和 依赖 性 最 小 ， 其 跨 跃 结构 洞 能 力 极 强 。 

(2) 中 频 关键 词 。 与 上 述 分 析 同 理 ， 在 中 频 关 键 
词 网 络 中 有 效 规模 最 高 ， 约 束 度 最 小 的 关键 词 包括 
“大 夫 、 天 子 、 情 、 二 人 、 月 、 帝 、 境 、 弟 、 秦 兵 、 
AB, BE, PE, Ee, R Bi, WL G SEL AR”, 
由 此 表明 ， 这 些 词 在 网 络 中 地 位 最 重要 且 受 到 的 约束 
最 小 ， 可 获得 更 多 的 资源 与 信息 。 

(3) 低频 关键 词 。 在 低频 关键 词 网 络 中 有 效 规模 
最 高 ， 约 束 度 最 小 的 关键 词 为 “兄弟 、 君 子 、 校 、 人 
谓 、 土 "。 而 在 表 3 中 有 效 规模 最 低 ， 约 束 度 最 大 的 关 
键 词 为 “大 梁 、 酒 ”。 由 此 可 见 ，“ 大 梁 、 酒 ”和 “ 兄 
弟 、 君 子 、 校 、 人 谓 、 土 ”等 词语 相 比 ， 在 网 络 地 位 
重要 性 较 小 ， 受 到 的 约束 性 和 依赖 性 较 大 ， 其 跨 跃 结 
构 洞 能 力 较 弱 。 


a 
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AS, KHS, PrE, AXA 
数字 人 文 “ 一 手 证 据 ” 循 证 范式 研究 : BT 《 鲍 氏 国策 》 的 共 词 分 析 


RI 高 、 中 、 低 词 频 网 络 关键 词 限 制度 和 有 效 规模 (前 10) 


Table 3 Constraint and effective scale of keywords in high-, medium- and low-frequency co-word networks (Top 10) 


高 词 频 约束 度 有 效 规 模 
氏 、 民 、 身 、 燕 、 势 、 命 、 力 、 楚 王 、 利 、 字 、 志 、 诸 伐 、 天 下 、 史 、 家 0.039 3 7.316 8 
Be 0.039 3 7.060 0 
陈 0.039 3 6.980 0 
权 、 谋 0.039 4 6.760 0 
HA 0.039 5 6.252 5 
AT R AF. Sh. HY SEAL RS TEAS 4%. RE AUR, BR. FBR. Pe. LA HB. BS Fl 0.039 5 6.160 0 
祠 0.039 5 6.151 5 
T 0.039 5 6.051 5 
先王 0.039 6 5.783 5 
MA. th. Æ 0.039 6 5.606 1 

中 词 频 约束 度 有 效 规模 
大 夫 、 天 子 、 情 、 二 人 、 月 、 带 、 境 、 弟 、 秦 兵 、 郡 、 惠 王 、 群 臣 、 压 、 徐 、 霸 、 胡 、 色 、 妻 、 社 种 0.043 6 8.692 3 
T A, AR 0.043 7 8.022 2 
百姓 、 法 、 羊 、 玉 、 物 、 急 、 李 0.043 8 7.888 9 
而 、 纪 0.043 8 7.651 7 
如 0.043 8 7.561 8 
木 、 位 0.043 8 7.516 9 
理 0.043 9 7.344 8 
al 0.043 9 7.2273 
专 0.043 9 7.157 3 
wi 0.044 0 6.931 8 

低 词 频 约束 度 有 效 规模 
兄弟 、 君 子 、 校 、 人 谓 、 土 0.055 8 10.9437 
ak 0.056 0 10.485 7 
君臣 0.056 1 10.1143 
H 0.056 2 9.753 6 
Zij 0.056 7 8.656 3 
mi. Aly BR. E RE M i BB. E Bi, BT, R 0.056 8 8.217 4 
桓公 0.056 8 8.029 4 
梁 王 0.0570 8.060 6 
头 0.057 0 7.735 3 
KR. W 0.057 0 7.537 3 


a 并 且 b Alc HEE, WA a 和 也 有 连接 的 可 能 性 。_ 个 
28 ER ARRAN 节点 的 局 部 聚 类 系数 体现 的 是 其 邻 节点 也 相互 连通 的 

聚 类 系数 和 节点 紧密 性 活力 是 两 个 衡量 共 词 网 络 ”可 能 性 。 聚 类 系数 越 大 说 明 存 在 较 多 的 紧密 联系 团体 ， 
节点 间 关 系 密切 程度 的 指标 。 聚 类 系数 (Clustering ”简洁 性 低 。 节 点 的 紧密 性 活力 (Closeness Vitality, 
Coefficient, CC) 衡量 了 特定 节点 的 单 跳 邻 居 之 间 是 。 CV) 则 统计 了 排除 特定 节点 后 ， 所 有 其 他 节点 对 之 间 
否 相关 关联 。 也 就 是 说 ， 如 果 节 点 a 和 节点 b 连接 ， 距离 之 和 。 
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由 表 4 可 见 ，3 个 共 词 网 络 中 ， 高 频 词 的 聚 类 系数 
最 大 ， 代 表 这 些 节 点 的 网 络 粘性 高 。 相 比 而 言 ， 中 频 
词 和 低频 词 差距 不 大 。 整 体 而 言 ，3 个 网 络 都 属于 凝聚 
力 强 ,联系 紧密 的 网 络 。 根 据 表 4 节点 的 聚 类 系数 和 
紧密 型 活力 分 析 ， 可 以 看 出 ， 高 频 关键 词 “ 国 、 沪 、 
分 、 女 、 高 、 而 、 竖 、 数 ”与 中 词 频 关键 词 “ 攻 楚 、 
E, RE T E O ARAME E, 
K S AJR W FRE, SR” TAA ee TI 
系 紧密 ， 排 除 它们 时 网 络 会 发 生 很 大 的 改变 。 


4 讨 论 

随 着 自然 语言 处 理 技术 的 发 展 ， 数 字 人 文 领域 的 
很 多 研究 者 都 致力 于 发 展 新 的 统计 技术 ， 以 改进 数字 
人 文 研究 的 效率 。 对 于 循 证 数字 人 文 研究 来 说 ， 主 题 
建 模 方法 是 当前 数字 人 文 研究 中 一 种 新 的 计算 方法 。 
王 小 红 等 四 以 主题 建 模 在 人 文 知识 研究 和 学 习 中 的 应 
用 为 例 ， 剖 析 了 主题 建 模 对 人 文 知识 的 计算 分 析 所 引 
发 的 主题 客观 性 呈现 、 解 读 语 义 、 新 的 阅读 方式 等 方 
法 论 、 认 识 论 问题 。 

除 主题 建 模 外 ， 也 有 研究 者 中 基于 中 国 历代 人 物 
资料 库 (CBDB) 数据 库 ， 构 建 历史 人 物 关系 网 络 ， 将 
历史 人 物 表 示 成 具有 语义 的 低 维 实 向 量 。 这 些 研 究 基 
于 数字 人 文理 念 ， 对 人 物 相 关 度 计算 和 人 物 关系 挖 所 
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等 人 文 计算 任务 展开 了 实证 研究 ， 为 数字 人 文中 基于 
“一 手 证 据 ” 而 展开 循 证 研究 提供 了 可 行 的 方案 。 此 
外 ， 张 云 中 等 四 针对 唐三彩 数字 文化 资源 展示 设计 了 
语义 描述 模型 与 元 数据 框架 。 刘 浏 等 四 从 数字 人 文 视 
角 入 手 ， 解 析 了 古 汉语 实体 此 义 问 题 。 朱 锁 玲 等 四 就 
数字 人 文 在 中 国 农 史 研 究 中 的 实践 展开 了 研究 。 魏 晓 
萍 鸣 则 针对 数字 人 文 背景 下 数字 化 古籍 的 深度 开发 利 
用 进行 了 探析 。 

男 有 研究 者 "通过 抽取 古籍 文献 中 蕴含 的 物产 名 
与 别名 的 关联 关系 为 数据 对 象 ， 借 助 社会 网 络 分 析 技 
术 ， 通 过 线 值 、 点 度 、 个 人 中 心 网 络 、 连 通 子 网 络 等 
维度 ， 可 视 化 地 展示 物产 名 与 别名 之 间 的 网 络 关系 。 
进而 从 不 同 的 视角 进行 知识 关联 分 析 ， 探 讨 社会 网 络 
分 析 技 术 在 方志 类 古籍 知识 挖掘 中 的 应 用 。 研 究 表 明 ， 
社会 网 络 分 析 方 法 在 古籍 的 知识 挖掘 方面 有 良好 的 应 
用 效果 。 此 外 ， 王 丽 丽 等 中 对 数字 人 文 视 角 下 古籍 知 
识 关联 相关 研究 进行 了 梳理 ， 认 为 借助 于 数据 分 析 技 
术 、 机 器 学 习 、 可 视 化 技术 等 可 实现 古籍 知识 关联 。 
并 提出 古籍 知识 关联 起 点 是 文献 组 织 ， 基 础 是 古籍 数 
据 ， 本 质 是 知识 组 织 。 程 结晶 等 四 以 《 汉 书 .艺文志 》 
中 西汉 经 学 家 群体 为 研究 对 象 ， 在 数据 资源 的 数据 分 
类 、 实 体 属性 阐释 、 词 表 构 建 以 及 本 体 模 型 的 确定 的 
基础 上 ， 搭 建 相 关 知 识 关 联 的 组 织 框架 ， 并 对 知识 组 
织 框架 中 的 源 数 据 层 、 数 据 转 换 层 、 数 据 关 联 层 、 知 


表 4 高 、 中 、 低 词 频 网 络 关 键 词 聚 类 系数 和 节点 紧密 性 系数 (前 10) 


Table 4 Clustering coefficient and closeness vitality of high-, medium- and low-frequency co-word networks (Top 10) 


高 频 词 中 频 词 低频 词 
CC CV CC CV CC CV 

女 1.000 0 162 攻 楚 1.000 0 攻 楚 131 J 1.000 0 再 拜 123 
分 1.000 0 Ke 133 伐 楚 1.000 0 =a 128 E 1.000 0 i 123 
ag 0.993 7 分 133 iza 1.000 0 养 125 实 1.000 0 柴 105 
高 0.985 9 女 133 养 0.993 7 伐 楚 125 再 拜 1.000 0 多 98 
Ke 0.985 5 高 132 春 0.986 3 春 121 if 1.000 0 E 98 
0.982 1 ag 128 Bi 0.984 7 Bi 120 柴 0.986 5 实 98 

HEE 0.979 2 VE 121 K 0.981 9 动 114 德 0.978 7 德 94 
受 0.978 7 eS 121 E 0.976 7 WG 112 平原 君 0.971 4 平原 君 92 
ATK 0.978 0 数 117 务 0.971 8 i 111 楚楚 0.963 0 E 91 
数 0.974 2 变 115 辩 0.970 3 fit 111 A 0.960 2 ae 88 
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识 应 用 层 进行 阐释 ， 试 图 为 古籍 中 人 物 史料 的 语义 化 
组 织 提 供 可 参考 的 研究 渠道 。 马 创新 等 四 提出 使 用 结 
构 化 的 知识 表示 方法 ， 组 织 经 典 古 籍 和 注 玻 文献 中 的 
知识 ， 实 现 知识 的 自动 重组 和 夷 类 ,分 析 注 玖 文献 中 
存在 的 问题 。 

综 上 所 述 ， 数 字 人 文 的 研究 者 已 针对 原始 古籍 文 
献 中 所 蕴含 的 丰富 证 据 元 素 展 开 了 大 量 研究 。 通 过 系 
统 性 文献 调查 发 现 ， 基 于 “一 手 证 据 ” 的 数字 人 文 循 
证 范式 正在 形成 。 同 时 ， 在 文献 调查 中 也 可 以 看 出 ， 
循 证 数字 人 文 研究 者 对 于 “一 手 证 据 ” 的 挖掘 相关 研 
究 仍 然 比较 零散 ， 对 于 构建 具有 中 国 特色 的 数字 人 文 
循 证 范式 自主 体系 而 言 ， 加 强 基础 研究 ， 将 目前 较为 
散乱 的 指标 整合 为 系统 化 的 方法 体系 已 刻不容缓 。 基 
于 此 ， 本 研究 以 《 鲍 氏 国策 》 为 研究 对 象 ， 通 过 共 词 
分 析 的 方法 ， 为 数字 人 文 循 证 研究 范式 的 形成 做 出 了 
有 益 的 探索 。 


面 对 丰 富 多 样 的 中 华 典 籍 文献 ， 构 建 具有 中 国 特 
色 数 字 人 文 循 证 范式 自主 知识 体系 具有 很 高 的 可 行 性 
和 理论 与 实践 价值 。 本 文 以 《 鲍 氏 国策 》 为 例 ， 基 于 
自然 语言 处 理 技术 ， 以 共 词 分 析 方 法 为 突破 口 ， 比 较 
全 面 地 展开 了 数字 人 文 研究 者 如 何 基于 来 自 原始 文献 
的 “一 手 证 据 ” 展 开 系 统 化 的 研究 ， 并 提供 了 相应 的 
统计 分 析 指 标 。 面 对 方兴未艾 的 数字 人 文 研究 ， 构 建 
具有 中 国 特 色 、 中 国 风格 、 中 国 气派 的 循 证 数字 人 文 
学 科 、 学 术 和 话语 体系 ,可谓 恰 着 其 时 。 基 于 本 研究 
所 发 展 的 循 证 数字 人 文 “ 一 手 证据” 分析、 挖掘 的 思 
路 和 方法 ， 在 后 续 研究 中 ， 我 们 将 把 更 多 的 优秀 传统 
经 典 纳入 其 中 ， 发 展 出 更 加 系统 化 的 分 析 方法 ， 从 而 
使 循 证 数字 人 文 研究 朝 显 出 最 大 的 研究 效益 。 

在 本 团队 展开 的 前 序 研究 中 ， 已 展示 了 循 证 社会 
科学 研究 中 ， 科 学 展开 一 手 文献 证 据 检 索 的 原理 与 方 
法 中 2。 本 研究 进一步 比较 全 面 地 展示 了 如 何 通 过 自然 
语言 处 理 等 方法 ， 从 原始 的 典籍 文献 中 获取 丰富 的 
“一 手 证 据 *”， 以 便 展 开 循 证 数字 人 文 研究 。 然 而 ， 面 
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数字 人 文 “ 一 手 证 据 ” 循 证 范式 研究 : 基于 《 鲍 氏 国策 》 的 共 词 分 析 


对 海量 的 典籍 、 档 案 、 简 睦 等 宝贵 文化 遗产 ， 如 何 应 
用 先进 的 技术 工具 ， 进 一 步 展 开 证 据 的 挖掘 与 关联 分 
析 ， 仍 然 是 一 个 耻 待 开拓 的 条 新 领域 。 为 此 ， 本 研究 
的 开展 ， 为 开展 更 大 规模 的 “一 手 证 据 ” 循 证 数字 人 
文 研究 提供 了 一 个 可 资 借鉴 的 案例 。 期 竺 在 今后 的 数 
字 人 文 研究 中 ， 更 多 具有 中 国 特色 的 数字 人 文 研究 不 
断 涌现 ， 从 而 为 早日 建成 中 国 自主 的 循 证 数字 人 文 知 
识 体 系 葛 定 基础 。 
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Evidence-based Digital Humanity Paradigm of First-hand Evidence: 
A Co Word Analysis Based on Bao's Zhan Guo Ce 


WeiZhipeng” Zhao Yueyan’, Yang Kehu™, Zhou Wenjie™™ 
(1. Cross-innovation Laboratory of Evidence-based Social Science of Lanzhou University, Lanzhou 730030; 
2. Evidence-based Medical Center of School of Basic Medical Sciences of Lanzhou University, Lanzhou 730030; 


3. Business School of Norwest Normal University, Lanzhou 730070) 


Abstract: [Purpose/Significance] Evidence acquisition is one of the most critical factors affecting evidence-based digital humanities 
research. The first-hand evidence contained in the ancient literature works is an important way to carry out digital humanities research, 
and thus, the purpose of this research is to shed light on the evidence-based digital humanities research process based on the empirical 
analysis of Bao's Zhan Guo Ce, which is one of the most influential books in Chinese history. [Method/Process] In the face of rich and 
diverse Chinese ancient literature works, it is of theoretical and practical value to build an independent knowledge system with Chinese 
characteristics based on the evidence-based paradigm of digital humanities. For this reason, the present research used the natural 
language processing (NLP) method to analyze Bao's Zhan Guo Ce in Jiayan Library, which is tailored for the NLP analysis of Chinese 
ancient literature works. By using co-word analysis, this research comprehensively discusses how digital humanities researchers carry 
out systematic research based on first-hand evidence from ancient literature via word frequency analysis, visualization of co-words, 
cluster analysis, centrality degree analysis, etc. Social network analysis (SNA), NetworkX algorithm and co-word visualization 
procedure are applied to give us insight into how to extract the first-hand evidence from ancient literature works. [Results/Conclusions] 
The key results include a procedure on how to extract first-hand evidence from ancient literature works like Bao's Zhan Guo Ce, in 
digital humanities research via Python. Specifically, the procedure includes basic word frequency indicators, a tool of removal of stop 
words, process of recognition and removal of ambiguous words. Furthermore, this study also takes Bao's Zhan Guo Ce as an example to 
show the basic procedure of analyzing first-hand evidence in digital humanities research by using a series of statistical analysis methods 
and indicators such as co-word network visualization, clustering coefficient, centrality degree, and structural hole recognition. The 
procedures, tools and methods demonstrated in this study are expected to provide reference for completing the evidence-based digital 
humanity research paradigm of first-hand evidence. Thus, the procedures, tools, statistical indicators and algorithm demonstrated in this 
research are expected to provide a foundation for building an independent knowledge system of evidence-based digital humanities with 
Chinese characteristics. 
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